ماسك: يتبقى القليل من البيانات الحقيقية لتدريب الذكاء الاصطناعي
اتفق إيلون ماسك مع آراء خبراء الذكاء الاصطناعي الآخرين على أن هناك القليل من البيانات الحقيقية المتبقية لتدريب نماذج الذكاء الاصطناعي.
قال ماسك خلال محادثة تم بثها مباشرة مع رئيس شركة ستاجويل مارك بين على منصة “X”: “لقد استنفدنا الآن بشكل أساسي من المجموع التراكمي للمعرفة البشرية في تدريب الذكاء الاصطناعي”، جاء ذلك في تقرير نشره موقع “تك.
ردد ماسك، الذي يمتلك شركة الذكاء الاصطناعي “xAI”، الموضوعات التي تطرق إليها كبير العلماء السابق في “OpenAI” إيليا سوتسكيفر في مؤتمر “NeurIPS” للتعلم الآلي، خلال خطاب ألقاه في ديسمبر.
وتوقع سوتسكيفر، الذي قال إن صناعة الذكاء الاصطناعي وصلت إلى ما أسماه “بيانات الذروة”، أن يؤدي نقص بيانات التدريب إلى التحول بعيدًا عن الطريقة التي يتم بها تطوير النماذج اليوم.
ويرى ماسك أن البيانات الاصطناعية، (البيانات التي تولدها نماذج الذكاء الاصطناعي نفسها)، هي الطريق إلى الأمثل لتطوير نماذج الذكاء الاصطناعي. وقال: “الطريقة الوحيدة لاستكمال بيانات العالم الحقيقي هي البيانات الاصطناعية، حيث ينشئ الذكاء الاصطناعي بيانات التدريب”.
تطوير الذكاء الاصطناعي بالبيانات المصنوعة
وتستخدم شركات أخرى، بما في ذلك شركات التكنولوجيا العملاقة مثل “مايكروسوفت”، و”ميتا”، و”أوبن إيه آي”، و”أنثروبيك”، بالفعل البيانات الاصطناعية لتدريب نماذج الذكاء الاصطناعي الرائدة.
وتقدر جارتنر أن 60% من البيانات المستخدمة في مشاريع الذكاء الاصطناعي والتحليلات في عام 2024 تم إنشاؤها اصطناعيا.
قامت “مايكروسوفت” بتدريب نموذج “Phi-4” على بيانات اصطناعية جنبًا إلى جنب مع بيانات من العالم الحقيقي، وكذلك كانت نماذج “Gemma” من “جوجل”.
كما استخدمت “أنثروبيك” بعض البيانات الاصطناعية لتطوير أحد أنظمتها الأكثر أداءً، “Claude 3.5 Sonnet”.
وقامت “ميتا” بضبط أحدث سلسلة من نماذج “Llama” باستخدام البيانات المولدة بواسطة الذكاء الاصطناعي.
توفير النفقات
تدريب نماذج الذكاء الاصطناعي على البيانات الاصطناعية له مزايا أخرى، مثل توفير التكاليف.
تدعي شركة Writer الناشئة في مجال الذكاء الاصطناعي أن نموذج “Palmyra X 004” الخاص بها، والذي تم تطويره باستخدام مصادر اصطناعية بالكامل تقريبًا، تكلف 700 ألف دولار فقط للتطوير، مقارنة بتقديرات 4.6 مليون دولار لنموذج “OpenAI” ذو الحجم المماثل.
عيوب الاعتماد على البيانات الاصطناعية
تشير بعض الأبحاث إلى أن البيانات الاصطناعية يمكن أن تؤدي إلى انهيار النموذج، حيث يصبح النموذج أقل “إبداعا” وأكثر تحيزا في مخرجاته، مما يعرض وظيفته للخطر بشكل خطير في نهاية المطاف.
ولأن النماذج تخلق بيانات اصطناعية، فإذا كانت البيانات المستخدمة لتدريب هذه النماذج متحيزة ومفروض عليها قيود، فإن مخرجاتها ستكون ملوثة بنفس القدر.