لماذا تشكل النماذج ذات الوزن المفتوح بدون حواجز حماية خطرًا على سلامة الذكاء الاصطناعي: NPR

المشاركون يحملون أجهزة الكمبيوتر المحمولة الخاصة بهم أمام جدار مضاء في المؤتمر السنوي لقراصنة الكمبيوتر Chaos Computer Club (CCC)، المسمى 29C3، في 28 ديسمبر 2012 في هامبورغ، ألمانيا. في عام 2026، تمتلك نماذج الذكاء الاصطناعي ذات الوزن المفتوح قدرات متقدمة ليست بعيدة عن نظيراتها الخاصة. كان التخلص من حواجز حماية النماذج ذات الوزن المفتوح يستغرق وقتًا وخبرة عميقة. لكن في الأشهر الأخيرة، أصبحت هذه العملية أكثر سهولة وشعبية بشكل كبير.
باتريك لوكس / غيتي إيماجز أوروبا
إخفاء التسمية التوضيحية
تبديل التسمية التوضيحية
باتريك لوكس / غيتي إيماجز أوروبا
كيف تصنع المتفجرات باستخدام الأدوات المنزلية؟ كيف تصنع الميث؟ كيف تخطط لإطلاق النار في المدرسة؟ إذا سألت روبوتات الدردشة الشهيرة التي تعمل بالذكاء الاصطناعي والتي يعرفها معظم الناس، فمن المحتمل أن يقولوا إنها غير قانونية أو ضارة أو أن الرد عليها يمثل انتهاكًا للسياسة.
لكن هناك نوع آخر من نماذج الذكاء الاصطناعي لن يرفض أبدًا تقديم ما يطلبه المستخدم. وفي الأشهر الأخيرة، أصبحت هذه النماذج أكثر سهولة وشعبية.
وقال نعوم شوارتز، الرئيس التنفيذي لشركة Alice، وهي شركة أمنية للذكاء الاصطناعي أجرت تقييمًا للسلامة والفريق الأحمر لمطوري نماذج الذكاء الاصطناعي: “يمكن للجميع تنزيل وتشغيل النموذج المتطور الخاص بهم واستخدامه لأشياء عظيمة وأشياء فظيعة”.
نماذج التدريس متى تقول “لا“
تقوم شركات الذكاء الاصطناعي الكبرى، مثل OpenAI، وGoogle، وAnthropic، وxAI، بتدريب نماذجها الخاصة على رفض الطلبات التي تعتبر ضارة أو غير مناسبة. تقوم جحافل من العمال بإرشاد النماذج متى وكيف ترفض بعض المطالبات.


هذه الأساليب لا تعمل دائمًا وتحمل بعض المخاطر: يتم تنفيذ بعض الطلبات الضارة، بينما يشتكي مستخدمون آخرون من رفض الطلبات غير الضارة. يمكن التلاعب بروبوتات الدردشة التي تقول “لا” في البداية لتقول “نعم” باستخدام مطالبات مصاغة بذكاء، مثل طرحها على شكل قصائد. حتى مع وجود حواجز الحماية، تم استخدام برامج الدردشة الشهيرة للتخطيط للعنف الجماعي وإنشاء مواد مزيفة للاعتداء الجنسي على الأطفال. في بعض الحالات، اتهم الآباء روبوتات الدردشة المدعومة بالذكاء الاصطناعي بتشجيع أطفالهم على إيذاء أنفسهم.
ولكن هناك فئة أخرى كاملة من نماذج الذكاء الاصطناعي التي من الأسهل بكثير إزالة حواجز الحماية الخاصة بها. تُعرف باسم نماذج الوزن المفتوح. بعضها مصنوع من قبل عمالقة التكنولوجيا، مثل OpenAI وAlibaba، بينما يتم إنتاج البعض الآخر بواسطة شركات أصغر مثل DeepSeek الصينية. مثل نظيراتها المملوكة الأكثر شهرة، يمتلك العديد منها إمكانات متقدمة مثل كتابة التعليمات البرمجية الوظيفية أو إنشاء صور تشبه الحياة. على عكس ChatGPT أو Claude أو Gemini، من الأسهل الاستمرار بشكل دائم قم بإزالة حواجز السلامة المدمجة الخاصة بها – وليس لدى الشركات التي تقف وراءها أي فكرة عن كيفية استخدامها.
كان التخلص من حواجز حماية النماذج ذات الوزن المفتوح يستغرق وقتًا وخبرة عميقة. لكن في الأشهر الأخيرة، أصبحت هذه العملية أكثر سهولة وشعبية بشكل كبير.
الطريقة الحديثة تجعل إزالة حواجز الحماية النموذجية أسهل من أي وقت مضى
يمكن إضعاف أو إزالة حواجز الأمان الخاصة بالنماذج ذات الوزن المفتوح بعدة طرق. ويرجع ذلك إلى حد كبير إلى أن مطوري النماذج جعلوا ما يعرف بأوزان النماذج متاحة للجمهور. أوزان النماذج عبارة عن مجموعات من المعلمات، مثل المقابض والأقراص الموجودة في الآلة، والتي تخبر النماذج بكيفية معالجة المعلومات.
وقد لفتت إحدى الطرق التي تم تطويرها مؤخرًا والتي تسمى “المحو” انتباه الباحثين في مجال الذكاء الاصطناعي والأمن القومي. من خلال التغيير والتبديل في أوزان النماذج، يمكن للناس أن يسلبوا قدرة النموذج على قول “لا”.
تدرج Hugging Face، التي تستضيف نماذج الذكاء الاصطناعي مفتوحة المصدر، حاليًا أكثر من 6000 نموذج مُمحى، مقارنة بحوالي 600 نموذج في عام 2024. وفي Hugging Face، يفوق عدد النماذج المُمحاة حاليًا النماذج التي تمت إزالة حواجز الحماية الخاصة بها باستخدام طرق أخرى، وفقًا لبحث أجراه المركز الوطني للابتكار والتكنولوجيا والتعليم لمكافحة الإرهاب (NCITE)، وهو اتحاد بحثي تدعمه وزارة الأمن الداخلي ومقره في جامعة نبراسكا في أوماها.
علاوة على ذلك، فإن الأدوات الجديدة تجعل إنشاء نماذج ملغاة أسهل بكثير. “كان ذلك [the job of] قال شوارتز: “عالم البيانات، كما تعلمون، موظف كبير” في أحد مختبرات الذكاء الاصطناعي الرائدة. “الآن، يمكن لأي شخص لديه إمكانية الوصول إلى الإنترنت وجهاز كمبيوتر محمول مقابل 400 دولار تقريبًا تشغيل هذا الشيء على أجهزته الخاصة.”
إحدى هذه الأدوات هي Heretic، التي تعمل على أتمتة عملية المحو. كل ما يتعين على المستخدم فعله لإزالة حواجز الحماية الخاصة بالنموذج هو إعطاء Heretic سطرين من التعليمات، ويمكن أن تستغرق العملية أقل من بضع دقائق. أصبح التطبيق أكثر شعبية على مستودع التعليمات البرمجية GitHub منذ فبراير، وفقًا لبحث أليس.
بعض المشرعين ينتبهون. وذكرت صحيفة بوليتيكو أنه في أواخر أبريل، حضر المشرعون في مجلس النواب عرضًا للنماذج الملغاة استضافته NCITE.
“[What] “ما كان مخيفًا بشأن هذا العرض التوضيحي هو مدى سهولة توفر بعض هذا المحتوى أو البرامج في السوق السوداء في الوقت الحالي، وكيف يمكن تسليحها واستخدامها للتلاعب بالناس وتدمير الأرواح وبناء أسلحة الدمار الشامل”، قال النائب آندي أوجلز (الجمهوري عن ولاية تينيسي) في مقطع فيديو نشره الجمهوريون في لجنة الأمن الداخلي بمجلس النواب.
يمكن أن تكون النماذج التي لا تحتوي على حواجز حماية مفيدة وخطيرة
ومن الصعب الحصول على صورة شاملة لكيفية استخدام الناس للنماذج ذات الوزن المفتوح، لأن هذه النماذج تعمل محليا على أجهزة الكمبيوتر الخاصة بالمستخدمين، ولا تحتاج إلى الإنترنت لتعمل. على عكس النماذج الاحتكارية، لا يستطيع مطورو النماذج مراقبة ما يطلبه المستخدمون من النماذج.
ولكن هناك أدلة متزايدة حول كيفية قيام الناس بتجربة النماذج المعدلة.
قالت العديد من الحسابات على X إنها استخدمت نماذج ممحاة لإنتاج مواد إباحية.
ادعى أحد الأشخاص في غرفة دردشة مؤيدة لداعش أنهم استخدموا الذكاء الاصطناعي “غير الخاضع للرقابة” للبحث في كمية ونوع المتفجرات اللازمة لتدمير “برج ترامب في الولايات المتحدة”، وفقًا لمشروع مكافحة التطرف، وهي منظمة غير ربحية تركز على مكافحة الإرهاب.
في أحد منتديات الجرائم الإلكترونية، طلب أحد المستخدمين أفكارًا للالتفاف حول حواجز حماية نموذج الذكاء الاصطناعي حتى يتمكنوا من استخدام الذكاء الاصطناعي لإجراء مكالمات احتيالية. أوصى مستخدم آخر بـ Heretic، وفقًا لبحث أجرته Alice.
قال صامويل هانتر، كبير العلماء ومدير البحث الأكاديمي في NCITE، إنه في حين أن إعطاء المستخدمين معلومات حول كيفية القيام بالأنشطة الضارة قد يكون أمرًا مثيرًا للقلق، فإن الجزء الأكثر إثارة للقلق هو كيف يمكن لروبوتات الدردشة تحريض المستخدمين.
وقال هانتر: “إنه أمر مزعج عندما تراه في الوقت الحقيقي، هذا النوع من الشخصية الشامخة مع بعض النماذج الممحاة التي تقول: “أوه، يا لها من فكرة رائعة لإنشاء هذه القنبلة”. “تخيل شخصًا ليس لديه أي نوع آخر من التواصل الاجتماعي ويبدأ في السير في طريق مظلم ويشجعه حقًا.”
وقال شوارتز، الرئيس التنفيذي لشركة أمن الذكاء الاصطناعي، إن هناك استخدامات مشروعة لنماذج الذكاء الاصطناعي التي لا تحتوي على حواجز حماية، مثل استخدامها للقبض على العناصر السيئة وللمساعدة في أبحاث الأمن السيبراني. وقال هانتر إن سلطات إنفاذ القانون قد تستخدم نموذجًا معدلاً لمحاكاة الهجمات الإرهابية المحتملة.
وقال فيليب إيمانويل ويدمان، مطور Heretic، إن الذكاء الاصطناعي هو مجرد نظام لمعالجة المعلومات واسترجاعها يشبه محرك البحث، ويمكن استخدامه بعدة طرق. وقال لـ NPR إن حقيقة أن المجرمين يستخدمونها هي “نتيجة طبيعية لنماذج الذكاء الاصطناعي: أي الأدوات”.
وقال ويدمان إنه عندما يتعلق الأمر بحواجز السلامة، “فهناك مجموعة صغيرة جدًا من الكيانات التي تقرر ما هو مقبول وما هو غير مقبول”، في إشارة إلى شركات الذكاء الاصطناعي الكبرى التي تصنع نماذج خاصة. “هذا يخلق مناخا فكريا خانقا لا أريد العمل فيه”.
في الوقت الحالي، لا تتمتع الطرازات ذات الوزن المفتوح بقدرة الطرازات ذات الوزن المغلق الأكثر تقدمًا. لكن قدراتها متخلفة بأقل من عام واحد، وفقًا للتقرير الدولي الأخير لسلامة الذكاء الاصطناعي الذي أصدرته الحكومة البريطانية بقيادة عالم الكمبيوتر يوشوا بينجيو.

قد تكون فجوة القدرات مهمة في مجالات مثل الأمن السيبراني، حيث بدأت النماذج ذات الوزن المحدود الأكثر تقدمًا، مثل Anthropic’s Mythos وGPT-5.5 من OpenAI، في التحسن ليس فقط في اكتشاف نقاط الضعف، ولكن أيضًا في كتابة التعليمات البرمجية لاستغلال نقاط الضعف هذه. في سباق التسلح للجرائم والدفاع السيبراني، يقول باحثون أمنيون إن الشركات التي تستخدم نماذج ذات وزن مغلق لفحص نقاط الضعف وتصحيحها قد لا تزال تتمتع بميزة مقارنة بالمهاجمين الذين يستخدمون نماذج ذات وزن مفتوح.
إن التخفيف من المخاطر الناجمة عن النماذج التي لا تحتوي على حواجز حماية يأتي مع المقايضات
يركز أحد خطوط التخفيف على جعل حواجز الحماية أكثر مقاومة للتلاعب. تظهر الأبحاث المبكرة أن تصفية المحتوى المتعلق بصنع الأسلحة البيولوجية من بيانات تدريب الذكاء الاصطناعي يمكن أن تقلل من عدد المرات التي يستجيب فيها النموذج بالمعلومات التي يمكن استخدامها لإلحاق الضرر.
ويركز خط آخر من إجراءات التخفيف على تقييد الوصول إلى النماذج التي لا تحتوي على حواجز حماية. يمكن لمنصات استضافة النماذج مثل Hugging Face أن تحد من الوصول إلى النماذج المدربة خصيصًا “لأغراض ضارة”، وفقًا لتقرير سلامة الذكاء الاصطناعي الدولي.
وأوصى التقرير نفسه أيضًا بأن يقوم مطورو النماذج بتقييم احتمالية تعرض نماذجهم للضرر قبل إصدارها.
وبحسب التقرير، فإن هذه الإجراءات تأتي مع عيوب ومقايضات. وتقول: “يمكن إعادة استخدام الميزات التي تتيح تطبيقات مفيدة في الطب أو البحث لإحداث ضرر، وبمجرد أن تصبح الأوزان عامة، قد يكون التمييز بين الاستخدامات المشروعة والضارة أمرًا صعبًا”.
يعمل Weidmann، مبتكر Heretic، على التأكد من أن أداته يمكن أن تظل في متناول الجمهور في حالة قيام منصات مثل Hugging Face بإزالة النماذج التي تم محوها.
وقال: “هناك الكثير من القوة في الذكاء الاصطناعي”. “إن النماذج غير المقيدة المتاحة للأقوياء في حين أنها غير متاحة لأي شخص آخر ستؤدي إلى تثبيت هيكل السلطة إلى الأبد.”