تم تعليم الشبكة العصبية تحليل المقالات العلمية وبراءات الاختراع باللغة الروسية

يتزايد حجم المعلومات العلمية والتقنية (براءات الاختراع والمقالات والتقارير) بسرعة كل يوم. يساعد الذكاء الاصطناعي على العمل بفعالية مع هذه المجموعة من البيانات. عادةً ما تكون نماذج اللغات الكبيرة المتوفرة في السوق متعددة اللغات ويتم تدريبها بلغات مختلفة. لكن روبوتات الدردشة التوليدية الشهيرة المعتمدة على الذكاء الاصطناعي، مثل ChatGPT، تعتمد بشكل كبير على البيانات باللغة الإنجليزية، مما يهدد بإنشاء ثقافة أحادية للبيانات في الذكاء الاصطناعي. بالإضافة إلى ذلك، قام العلماء في معهد البحوث الإحصائية واقتصاديات المعرفة في المدرسة العليا للاقتصاد بجامعة الأبحاث الوطنية بتدريب نماذج لغوية كبيرة موجودة للحصول على أداة قادرة على تحليل النصوص العلمية باللغة الروسية بشكل أكثر دقة مع فهم تفاصيل الموضوع. كان الأساس هو مجموعة بيانات iFORA-QA، التي تم جمعها يدويًا بواسطة أكثر من 150 خبيرًا من ISSEK من المواد التحليلية والتقارير في مجال العلوم والتكنولوجيا والابتكار. لقد اجتاز البرنامج تسجيل الدولة. وبعد التكيف، زادت دقة النموذج عند الإجابة على الأسئلة شديدة التخصص في مجال العلوم والتكنولوجيا والابتكار، وزادت سرعة التوليد بمقدار 2.7 مرة، وانخفض استخدام الذاكرة بنسبة 73% مقارنة بالنموذج المفتوح متعدد اللغات. “نماذج اللغة العالمية تعرف الكثير، ولكن بشكل سطحي. نحن بحاجة إلى نموذج يفهم ما يكتب عنه العلماء والمهندسون الروس. بفضل البحث، تمكنا من تعليم الخوارزمية للتفكير في فئات الموضوع، وفهم الروابط بين المفاهيم المعقدة وتفسير الاستعلامات بشكل صحيح،” تعلق أناستاسيا مالاشينا، كبيرة محللي المشاريع والباحثة والخبيرة الرائدة في مركز ISSEK للتحليلات الاستراتيجية والبيانات الضخمة. وفي هذا العام بالفعل، سيقوم الباحثون بتطوير أدوات مفيدة إضافية بناءً على النموذج المعدّل. الأول سيكون محرك بحث ذكي – سيقلل من خطر هلوسة النموذج وسيشكل استنتاجات فقط مع روابط لمصادر المعلومات العلمية. الأداة الثانية هي رسم بياني للاتصال، والذي سيسمح لك بتحديد الأنماط، بما في ذلك الأنماط المخفية، بناءً على بنية المصادر. بالإضافة إلى ذلك، سيكتسب النموذج القدرة على العمل مع معلومات غير كاملة وغامضة، وكذلك السبب، أي ليس فقط إعطاء إجابة، ولكن أولا تحليل ما هو مفقود، وطرح أسئلة توضيحية للمستخدم، وبعد ذلك فقط صياغة إجابة مفصلة. ونتيجة لذلك، سيتم دمج كل هذه القدرات في نظام واحد متعدد الوكلاء، مما سيسمح بحل المشكلات المعقدة تلقائيًا. تؤكد أناستازيا مالاشينا: “نحن نقوم بإنشاء نظام كامل من العملاء الأذكياء، يتكيف مع حقائق العلم الروسي. وسيعمل على أساس نموذج لغوي كبير وسيكون قادرًا على تحليل المعلومات العلمية والتقنية بشكل مستقل وتحديد الروابط المخفية. وهذه خطوة نحو أتمتة التحليلات العلمية، حيث يصبح الذكاء الاصطناعي شريكًا للباحث”.

إتبعنا