10 سنوات من AlphaGo: كيف ساعد أحد المتدربين في بناء الذكاء الاصطناعي الذي هز العالم

بث انتصار AlphaGo على شاشة التلفزيون

الصورة من Im Hun-jung/Yonhap/AP عبر Getty Images

في مارس 2016، صدم نظام الذكاء الاصطناعي AlphaGo التابع لشركة Google DeepMind العالم. في سلسلة مذهلة من خمس مباريات من لعبة Go، وهي لعبة اللوحة الصينية القديمة، تغلب الذكاء الاصطناعي على أفضل لاعب في العالم، لي سيدول ــ وهي اللحظة التي تم بثها على شاشات التلفزيون أمام الملايين وأشاد بها الكثيرون باعتبارها لحظة تاريخية في تطور الذكاء الاصطناعي.

كريس ماديسون، الذي يعمل الآن أستاذًا للذكاء الاصطناعي في جامعة تورنتو، كان آنذاك طالبًا للماجستير وساعد في إطلاق المشروع. بدأ كل شيء عندما تواصل إيليا سوتسكيفر، الذي أسس لاحقًا شركة OpenAI،…

أليكس ويلكنز: كيف جاءت فكرة AlphaGo لأول مرة؟

كريس ماديسون: ايليا [Sutskever] أعطاني الحجة التالية حول سبب وجوب العمل على Go. قال، كريس، هل تعتقد أنه عندما ينظر لاعب خبير إلى لوحة Go، يمكنه اختيار أفضل حركة في نصف ثانية؟ إذا كنت تعتقد أنهم يستطيعون ذلك، فهذا يعني أنه يمكنك تعلم سياسة جيدة جدًا لاختيار أفضل حركة باستخدام الشبكة العصبية.

والسبب هو أن نصف ثانية هي تقريبًا الوقت الذي تستغرقه قشرتك البصرية للقيام بتمريرة واحدة للأمام [a round of processing]، وقد عرفنا ذلك بالفعل من ImageNET [an important AI image-recognition competition] أننا جيدون جدًا في تقريب الأشياء التي لا تتطلب سوى تمريرة واحدة للأمام من قشرتك البصرية.

لقد قبلت هذه الحجة، لذلك قررت الانضمام [Google Brain] كمتدرب في صيف 2014.

كيف تطور AlphaGo من هناك؟

عندما انضممت، كان هناك فريق صغير آخر في DeepMind كنت سأعمل معه، وهو Aja Huang وDavid Silver، الذين بدأوا العمل على Go. لقد كانت مهمتي الأساسية هي البدء في بناء الشبكات العصبية. لقد كان حلما.

كانت هناك مجموعة من الأساليب المختلفة التي جربناها، والكثير من الأشياء الأولية التي جربناها باءت بالفشل. في النهاية، شعرت بالإحباط وجربت أغبى وأبسط شيء، وهو محاولة التنبؤ بالخطوة التالية التي قد يقوم بها الخبير في منصب معين في مجلس الإدارة، وتدريب شبكة عصبية على مجموعة كبيرة من ألعاب الخبراء. وتبين أن هذا هو النهج الذي دفعنا حقًا إلى الانطلاق.

بحلول نهاية الصيف، استضفنا مباراة صغيرة مع Thore Graepel من DeepMind، الذي اعتبر نفسه لاعبًا محترمًا في لعبة Go، وقد تغلبت عليه شبكاتي. ثم بدأت شركة DeepMind في الاقتناع بأن هذا سيكون شيئًا حقيقيًا وبدأت في تخصيص الموارد لتحقيقه وبناء فريق كبير حوله.

ما مدى صعوبة التحدي الذي شهدته عند التغلب على لي سيدول؟

أتذكر أنه في صيف عام 2014، كانت لدينا صورة لي سيدول على مكتبنا بجوارنا. أنا لست لاعب Go، ولكن Aja [Huang] يكون. في كل مرة أقوم ببناء شبكة جديدة، تصبح أفضل قليلاً، وأتوجه إلى أجا وأقول، حسنًا، نحن أفضل قليلاً، ما مدى قربنا من لي سيدول؟ وكان أجا يلتفت إلي ويقول، كريس، أنت لا تفهم. لي سيدول حجر واحد من الله.

لقد تركت فريق AlphaGo قبل الحدث الكبير. لماذا؟

ديفيد [Silver] قال إننا نرغب في إبقائك مستمرًا ودفع هذا المشروع إلى المستوى التالي، وفي وقت لاحق، ربما كان هذا أحد القرارات الغبية التي اتخذتها، لقد رفضته. قلت إنني أعتقد أنني بحاجة إلى التركيز على درجة الدكتوراه، فأنا أكاديمي في القلب. عدت إلى درجة الدكتوراه وتشاورت بشكل فضفاض مع المشروع منذ تلك اللحظة فصاعدًا. أنا فخور بعض الشيء بأن أقول إن الأمر استغرق بعض الوقت للتغلب على شبكاتي العصبية. ولكن بعد ذلك، في نهاية المطاف، كانت القطعة الأثرية التي لعبت دور لي سيدول نتاج جهد هندسي كبير وفريق كبير.

كيف كانت الأجواء في سيول عندما فاز برنامج AlphaGo؟

كان من الصعب التعبير عن وجودي هناك في سيول في تلك اللحظة. لقد كانت عاطفية. لقد كانت شديدة. كان هناك شعور بالقلق. تذهب بثقة، لكنك لا تعرف أبدًا. إنها مثل لعبة رياضية. من الناحية الإحصائية، أنت اللاعب الأفضل، لكنك لا تعرف أبدًا كيف ستسير الأمور. أتذكر أنني كنت في الفندق الذي لعبنا فيه المباريات ونظرت من النافذة. لقد وصلنا إلى مستوى عالٍ بما يكفي بحيث يمكنك النظر إلى أحد التقاطعات الرئيسية في المدينة. أدركت أن هناك شاشة كبيرة، مثل تايمز سكوير، كانت تعرض مباراتنا. وبعد ذلك نظرت على طول الأرصفة، وكان الناس مصطفين واقفين ينظرون إلى الشاشة. لقد سمعت أرقامًا مثل أن مئات الملايين من الأشخاص في الصين شاهدوا المباراة الأولى، لكنني أتذكر تلك اللحظة، يا إلهي، لقد أوقفنا حقًا شرق آسيا في مساراتها.

ما مدى أهمية AlphaGo بالنسبة للذكاء الاصطناعي بشكل عام؟

لقد تغير الكثير على المستوى السطحي فيما يتعلق بعالم نماذج اللغات الكبيرة (LLMs)، وهي الآن مختلفة تمامًا في بعض النواحي عن AlphaGo، ولكن في الواقع هناك خيط تكنولوجي أساسي لم يتغير حقًا.

لذا فإن الجزء الأول من الخوارزمية هو تدريب الشبكة العصبية على التنبؤ بالخطوة التالية. تبدأ دورات LLM اليوم بما نسميه التدريب المسبق للتنبؤ بالكلمة التالية، من مجموعة كبيرة من النصوص البشرية الموجودة إلى حد كبير على الإنترنت.

بالنسبة للخطوة الثانية في AlphaGo، أخذنا المعلومات من تلك المجموعة البشرية التي تم ضغطها في هذه الشبكات العصبية، وقمنا بتحسينها باستخدام التعلم المعزز، لمواءمة سلوك النظام نحو هدف الفوز بالألعاب.

عندما تتعلم التنبؤ بالخطوة التالية للخبير، فهو يحاول الفوز، ولكن هذا ليس الشيء الوحيد الذي يفسر الخطوة التالية. ربما لا يفهمون ما هي الحركة الأفضل، وربما ارتكبوا خطأ، لذلك تحتاج إلى مواءمة النظام بأكمله مع هدفك الحقيقي، والذي كان هو الفائز في حالة AlphaGo.

في نماذج اللغات الكبيرة، يكون الأمر نفسه بعد التدريب المسبق. لا تتوافق الشبكات مع الطريقة التي نريد استخدامها بها، ولذلك نقوم بسلسلة من خطوات التعلم المعزز التي تجعل الشبكات متوافقة مع أهدافنا.

في بعض النواحي، لم يتغير الكثير.

هل يخبرنا أي شيء عن المكان الذي يمكننا أن نتوقع فيه نجاح الذكاء الاصطناعي؟

وله عواقب فيما يتعلق بما نختار التركيز عليه. إذا كنت قلقًا بشأن إحراز تقدم في المشكلات المهمة، فإن الاختناقات الرئيسية التي يجب أن تقلق بشأنها هي هل لديك ما يكفي من البيانات للقيام بالتدريب المسبق، وهل لديك إشارات مكافأة للقيام بالتدريب اللاحق. إذا لم يكن لديك هذه المكونات، فلن يكون هناك قدر من الذكاء – كما تعلمون، هذه الخوارزمية مقابل تلك الخوارزمية – ستساعدك على الانطلاق.

هل شعرت بأي تعاطف مع لي سيدول؟

كان لي سيدول هو هذا المعبود خلال صيف عام 2014، وهو هذا الإنجاز الذي لا يمكن تحقيقه. ثم التواجد فجأة هناك شخصيًا، ومشاهدة المباريات، والتوتر الذي يشعر به، والقلق، وإدراكه أن هذا الخصم كان أكثر جدارة بكثير مما كان يعتقد أثناء مشاركته، كان ذلك مرهقًا للغاية. أنت لا تريد أن تضع شخص ما في هذا الموقف. وعندما خسر المباراة اعتذر للإنسانية، وقال: “هذا فشلي وليس فشلكم”. كان ذلك مأساويا.

هناك أيضًا مخصص في Go لمراجعة المباراة مع خصمك. يفوز شخص ما أو يخسر، لكنك تقوم بمراجعة المباراة في النهاية، وتفك اللعبة وتستكشف الاختلافات مع بعضها البعض. لم يتمكن Lee Sedol من فعل ذلك لأن AlphaGo لم يكن بشريًا، لذا بدلاً من ذلك طلب من أصدقائه الحضور ومراجعة المباراة، لكن الأمر ليس هو نفسه. كان هناك شيء مفجع حول ذلك.

لكنني لم أقدر كل روايات الإنسان مقابل الآلة التي دارت حول المباراة، لأن فريقًا من الأشخاص قاموا ببناء AlphaGo. كان ذلك جهدًا قامت به قبيلة لبناء قطعة أثرية يمكنها تحقيق التميز في لعبة بشرية. لقد كانت في النهاية القطعة الأثرية التي دخلت فيها كل دماءنا وعرقنا ودموعنا.

هل تعتقد أنه لا يزال هناك مكان للبشر في العالم حيث ينجز الذكاء الاصطناعي المزيد من أعمال التفكير البشري؟

نحن نتعلم المزيد عن لعبة Go، وإذا اعتقدنا أن هذه اللعبة جميلة، وهو ما نفعله، ويمكن للذكاء الاصطناعي أن يعلمنا المزيد عن هذا الجمال، فهناك الكثير من الخير المتأصل في ذلك أيضًا. هناك فرق بين الأهداف والغايات. الهدف من لعبة Go هو الفوز، لكن هذا ليس غرضها الوحيد – هدف واحد هو الاستمتاع. لا يتم تدمير ألعاب الطاولة بوجود الذكاء الاصطناعي؛ الشطرنج صناعة مزدهرة. ما زلنا نقدر المؤامرة والإنجاز الإنساني لتلك الرياضة.

المواضيع:

إتبعنا