10 سنوات من AlphaGo: اللحظة التي انطلقت فيها ثورة الذكاء الاصطناعي

واجه لي سيدول AlphaGo في عام 2016
AP Photo / آهن يونغ جون / علمي
في المرة الأولى التي كشف فيها برنامج AlphaGo عن قوته الكاملة، أثار رد فعل عميقًا. كان لي سيدول، أعظم لاعب في العالم في لعبة الطاولة الصينية القديمة “جو”، قد أصبح منزعجًا بشكل واضح من براعة الذكاء الاصطناعي. بالكاد استطاع الحشد الصامت في وسط مدينة سيول بكوريا الجنوبية احتواء شهقاتهم. وسرعان ما خطر ببال لي، وعشرات الملايين الذين كانوا يشاهدونه في المنزل، أن هذا الذكاء الاصطناعي كان مختلفًا عن تلك التي جاءت من قبل.
لم يكن الأمر يقتصر على التغلب على لي فحسب، بل كان يفعل ذلك بكفاءة تشبه الإنسان تقريبًا. قال سيرجي برين، المؤسس المشارك لشركة Google: “يمتلك AlphaGo في الواقع حدسًا”. عالم جديد في عام 2016، بعد وقت قصير من تقدم AlphaGo بنتيجة 3-0. “إنها تقوم بحركات جميلة. بل إنها تخلق حركات أكثر جمالاً مما يمكن أن يفكر فيه معظمنا.”
انتهت السلسلة بفوز نظام AlphaGo من Google DeepMind بنتيجة 4-1. وقال لي إنه “في حالة صدمة”.
لقد مر الآن عقد من الزمان منذ هذه اللحظة الحاسمة بالنسبة لـ AlphaGo والذكاء الاصطناعي بشكل عام. يعد الإعجاب بالذكاء الاصطناعي تجربة شائعة مع نجاح نماذج اللغات الكبيرة مثل ChatGPT. لقد كان برنامج AlphaGo، من نواحٍ عديدة، أول لمحة عما سيأتي. بعد مرور عشر سنوات، ما هو إرث AlphaGo وهل ارتقت التكنولوجيا إلى مستوى إمكاناتها؟
يقول كريس ماديسون من جامعة تورونتو، الذي كان جزءًا من فريق AlphaGo الأصلي: “تختلف نماذج اللغات الكبيرة الآن تمامًا في بعض النواحي عن AlphaGo، لكن هناك في الواقع خيطًا تكنولوجيًا أساسيًا لم يتغير حقًا”.
وهذه التكنولوجيا الأساسية هي الشبكات العصبية، وهي هياكل رياضية مستوحاة من الدماغ ومكتوبة في شكل رموز. تاريخيًا، كان إنشاء آلة لعب يتطلب من الإنسان كتابة القواعد التي يجب عليه اتباعها في المواقف المختلفة. مع الشبكة العصبية، تتعلم الآلة من تلقاء نفسها.
ولكن حتى مع وجود شبكة عصبية، كان اختراق لغة Go أمرًا صعبًا. تسمح اللعبة الصينية القديمة، التي يقوم فيها لاعبان بتحريك عدادات باللونين الأبيض والأسود للحصول على مساحة على لوحة مقاس 19 × 19، بـ 10171 المواقف الممكنة. وبالمقارنة، هناك 10 فقط80 الذرات في الكون المرئي بأكمله.
جاء هذا الإنجاز من خلال محاولة ماديسون وزملائه إعادة إنشاء حدس اللاعب البشري من خلال تدريب شبكة عصبية للتنبؤ بالحركة الأقوى التالية بناءً على ملايين الحركات من الألعاب الحقيقية. وبطبيعة الحال، لن يحتاج اللاعبون من البشر إلى ممارسة العديد من الألعاب لبناء حدسهم، لكنهم أيضًا لن يتمكنوا من ذلك أبدًا – وهي ميزة واضحة للذكاء الاصطناعي.
ولم يقتصر AlphaGo أيضًا على التعلم من اللاعبين البشريين؛ يمكنها أن تلعب ملايين الألعاب ضد نفسها لصقل مهاراتها. يقول بوشميت كوهلي من Google DeepMind: “من خلال التعلم من خلال هذه الألعاب، يمكن اكتشاف معرفة جديدة ويمكن أن تتجاوز مستوى اللاعبين البشريين”.
كان النظام الأخير الذي تغلب على لي أكثر تعقيدًا من نماذج ماديسون المبكرة، لكن الرسالة الشاملة كانت بسيطة: الشبكات العصبية تعمل. يقول نوام براون من OpenAI: “لقد أظهر AlphaGo بشكل قاطع أن الشبكات العصبية يمكنها التعرف على الأنماط بشكل أفضل من البشر. ويمكن أن يكون لديها حدس يفوق البشر”.
ألفا أخرى
فماذا حدث بعد ذلك؟ بعد AlphaGo، بدأ باحثو Google DeepMind وAI في تطبيق هذا الدرس الأساسي على تطبيقات العالم الحقيقي، كما هو الحال في الرياضيات وعلم الأحياء. أحد الأمثلة الأكثر وضوحًا على ذلك هو AlphaFold، وهو الذكاء الاصطناعي الذي يمكنه التنبؤ بكيفية ظهور البروتينات في الفضاء ثلاثي الأبعاد من تركيبتها الكيميائية بشكل أفضل بكثير من أي برنامج صممه الإنسان، والذي فاز بالفريق الذي يقف وراءه بجائزة نوبل في الكيمياء.
وفي الآونة الأخيرة، حقق الذكاء الاصطناعي الآخر القائم على الشبكة العصبية، AlphaProof، مستوى الميدالية الذهبية في الأولمبياد الدولي للرياضيات، وهو اختبار رياضيات مرموق للطلاب وعلماء الرياضيات المذهلين. يقول كوهلي: “لا يمكنك فقط الحصول على هذا الذكاء الذي يتجاوز المستوى البشري في إحدى الألعاب، ولكن يمكنك الحصول على هذه الخبرة في التطبيقات العلمية المهمة”.
المنطق وراء كل من نمط AlphaGo للذكاء الاصطناعي والمنطق المستخدم لنماذج اللغات الكبيرة (LLMs) مثل ChatGPT متشابه. تتضمن الخطوة الأولى، والتي تسمى التدريب المسبق، تغذية الشبكة العصبية بكمية كبيرة من البيانات البشرية، مثل ألعاب Go الكاملة، أو الإنترنت بالكامل في حالة ماجستير إدارة الأعمال. أما الخطوة الثانية، والتي تسمى ما بعد التدريب، فتشهد تحسن الشبكة من خلال تقنية تسمى التعلم المعزز، والتي توضح للذكاء الاصطناعي كيف يبدو النجاح وتسمح له بمعرفة كيفية تحقيق ذلك.
بالنسبة لـ AlphaGo، كان هذا يعني السماح له باللعب ضد نفسه ملايين المرات حتى يكتشف أفضل الاستراتيجيات الفائزة. بالنسبة إلى AlphaFold، كان الأمر يتعلق بإخبار الذكاء الاصطناعي كيف يبدو البروتين المطوي بنجاح والسماح له بمعرفة القواعد. بالنسبة إلى ChatGPT، فهو يخبر النموذج الذي يجيب الأشخاص بشكل أفضل، وهي عملية تسمى التعلم المعزز من ردود الفعل البشرية، أو إعطائه حلاً لمشكلة محددة، كما هو الحال في الرياضيات أو البرمجة، والسماح له بالتوصل إلى أفضل السبل “للاستدلال” نحو الحل من خلال إعادة إنتاج مخرجاته إلى نفسه، على غرار الطريقة التي يفكر بها البشر بصوت عالٍ.
ولكن هذا يأتي مع عيوب أيضا. الشبكات العصبية هي، في كثير من النواحي، صندوق أسود. وعلى الرغم من الجهود المبذولة لمعرفة كيفية عملها، فإن الكثير منها كبير جدًا ومعقد بحيث لا يمكن فهمه على المستوى الأساسي.
عندما قام AlphaGo بحركته الشهيرة الآن 37، اعتقد المتفرجون في البداية أن الذكاء الاصطناعي قد أصيب بالجنون، ولكن مع تقدم اللعبة فقط أصبح من الواضح أنها كانت ضربة استراتيجية رئيسية. ومع ذلك، لم يتمكن مهندسو Google DeepMind من سؤال AlphaGo عن سبب قيامه بهذه الخطوة، ومن الممكن أن يكون ذلك خطأً بنفس السهولة، وهو الأمر الذي لم نكن أكثر حكمة بشأن أسبابه.
يقول كوهلي: “ستأتي هذه النماذج بإجابات ولن نعرف ما إذا كانت رؤى عبقرية أم هلوسة”. “ما زلنا جميعًا نعمل بنشاط على محاولة حل هذا النوع من الأسئلة.”
كان جزء كبير من إنجاز AlphaGo هو وجود بيانات وفيرة لتغذية النموذج في البداية وتعريف واضح للنجاح. من المنطقي إذن أن المجالات التي يحقق فيها الذكاء الاصطناعي أكبر قدر من النجاح اليوم هي في المجالات التي يكون فيها كلا الشرطين صحيحين أيضًا، كما يقول ماديسون، مثل الرياضيات والبرمجة، حيث يكون من السهل تحديد ما هو صحيح أو غير صحيح والتحقق منه. “إن أوجه التشابه بين هذه الأساليب تخبرنا بشيء ما، وهي تخبرنا ما هي المكونات الأساسية اللازمة لتحقيق التقدم.”
المواضيع: