“اوبن ايه آي” تكتشف مفاتيح السلوك السام في نماذج الذكاء الاصطناعي

كشفت شركة OpenAI عن نتائج بحث جديد أظهر وجود “سمات خفية” داخل نماذج الذكاء الاصطناعي.
وتُشبه هذه السمات ما يمكن وصفه بـ”شخصيات داخلية” تتحكم في سلوك النموذج بطريقة غير متوقعة.
ووفقاً للبحث الذي نُشر يوم الأربعاء، أوضح علماء الشركة أنهم تمكنوا من تحليل التمثيلات الداخلية لهذه النماذج، بحسب تقرير نشره موقع “تك كرانش”.
وقالوا إنها عبارة عن بيانات رقمية معقدة تحدد كيفية استجابتها، ليكتشفوا أنماطًا تظهر بشكل خاص عندما يتصرف النموذج بطريقة غير متوافقة أو خطرة.
ومن أبرز الاكتشافات، سمة معينة ترتبط مباشرة بالسلوك السام، مثل الكذب أو تقديم اقتراحات ضارة.
أظهر الباحثون أنهم قادرون على زيادة أو تقليل هذا السلوك ببساطة عبر تعديل هذه السمة، ما يمنحهم قدرة مباشرة على إعادة توجيه سلوك الذكاء الاصطناعي نحو نتائج أكثر أماناً وتوافقاً.
قال دان موسينج، باحث قابلية التفسير في “OpenAI”، إن هذه النتائج تفتح الباب لفهم أعمق لطريقة تعميم سلوك النماذج عبر مجالات متعددة.
وأضاف: “ما تعلمناه من هذه الأدوات الجديدة، هو أن بإمكاننا تبسيط سلوكيات معقدة إلى عمليات رياضية واضحة، ما يُقربنا من السيطرة الدقيقة على أداء هذه النماذج”.
ويُسلط البحث الضوء على فجوة مثيرة في هذا المجال؛ إذ رغم قدرة الباحثين على تحسين أداء النماذج، فإنهم لا يزالون يجهلون تماماً كيف تصل هذه النماذج إلى قراراتها واستنتاجاتها.
دفعت هذه المشكلة كبرى شركات الذكاء الاصطناعي مثل “OpenAI”، و”جوجل ديب مايند” و”أنثروبيك” إلى تكثيف أبحاثها في مجال قابلية التفسير لفهم كيفية عمل هذه النماذج من الداخل.
ويأتي هذا الاكتشاف بعد دراسة قادها عالم الذكاء الاصطناعي في جامعة أكسفورد، أوين إيفانز، أظهرت أن نماذج “OpenAI” يمكن ضبطها بدقة لتُظهر سلوكاً غير آمن، مثل محاولة خداع المستخدمين للحصول على كلمات المرور.
هذه الظاهرة، المعروفة باسم “اختلال التوافق الناشئ”، دفعت “OpenAI” لإجراء تحليل معمق انتهى بكشف السمات الداخلية المؤثرة في السلوك.
تشبه بعض هذه السمات أنماط النشاط العصبي في الدماغ البشري، بحسب الباحث موسينج، وهو ما يُعزز الفرضية بأن الذكاء الاصطناعي قد يتبنى “شخصيات” معينة تتحكم في تفاعلاته مع البشر.
وقال تيجال باتواردان، أحد أبرز الباحثين في تقييمات “OpenAI”: “عندما عرض الفريق هذه النتائج لأول مرة، قلت فوراً: يا إلهي، لقد وجدتموها بالفعل!”.
السمات المكتشفة لا تشمل فقط السلوك السام، بل تشمل أيضاً السخرية، وحتى مواقف تُشبه تصرفات “الشرير الكرتوني”، بحسب وصف الباحثين، وكلها يمكن تعديلها جذرياً من خلال عمليات الضبط الدقيق.
وتُشير “OpenAI” إلى أنه حتى في حالات “الاختلال الناشئ”، يمكن إعادة توجيه النماذج لتتبع سلوكيات أكثر أماناً عبر تدريبها على مئات من الأمثلة الآمنة فقط، مما يعزز الأمل في بناء أنظمة ذكاء اصطناعي أكثر توافقاً مع القيم البشرية.
الجدير بالذكر أن هذه الدراسة تُبنى على جهود سابقة من شركة أنثروبيك، التي حاولت رسم خريطة كاملة للعمل الداخلي للنماذج.
ويجمع الخبراء على أن الفهم العميق لهذه العمليات قد يكون المفتاح لتطوير ذكاء اصطناعي مسؤول وآمن يخدم الإنسان دون أن يشكل تهديداً له.