نظام جديد يكشف طريقة تعلّم الدماغ عبر المكافآت!

11 : 33

من خلال تفعيل أنظمة حلول حسابية لتحسين التعلّم، كشفت شركة "ديب مايند" تفاصيل جديدة عن دور الدوبامين في تعليم الدماغ!

وفق تقرير نشرته مجلة "ناتشر" حديثاً، عمدت "ديب مايند"، المتخصصة بالذكاء الاصطناعي والتابعة لشركة "ألفابت"، إلى استعمال الدروس المستخلصة من أدوات تحسين التعلّم لطرح نظرية جديدة عن آليات المكافأة داخل الدماغ. حصدت هذه الفرضية أدلة وافية في التجارب الأولية، وهي لا تكتفي بتحسين طريقة فهمنا للصحة النفسية والتحفيز، بل تؤكد أيضاً صحة مسار الأبحاث في مجال الذكاء الاصطناعي الذي يتّجه راهناً إلى تطوير ذكاء عام يشبه قدرات البشر.حين يوشك إنسان أو حيوان على القيام بأي تحرك، تطلق الخلايا العصبية المُنتِجة للدوبامين توقعاً عن المكافأة المنتظرة. وعند تلقي تلك المكافأة، تفرز الخلايا كمية من الدوبامين، بما يتماشى مع التوقعات الخاطئة. إذا كانت المكافأة أفضل من التوقعات، تنتج الخلايا كمية كبيرة من الدوبامين. أما المكافأة التي تكون أسوأ من التوقعات، فتقمع إنتاج تلك المادة الكيماوية. بعبارة أخرى، يكون الدوبامين أشبه بمؤشر تصحيحي، فيُبلِغ الخلايا العصبية بضرورة تعديل توقعاتها إلى أن تصبح متطابقة مع الواقع. تُعرَف هذه الظاهرة بـ"توقّع المكافآت الخاطئة" وتنشط مثل نظام الحلول الحسابي المرتبط بتحسين التعلّم.

يرتكز تقرير شركة "ديب مايند" الجديد على الرابط القوي بين هذه الآليات الطبيعية والاصطناعية للتعلّم. في العام 2017، طرح الباحثون فيها نسخة مستحدثة من نظام تحسين التعلّم، وقد نجح منذ ذلك الحين في تقديم أداء مبهر في مهام متنوعة. هم يظنون الآن أن هذه الطريقة الجديدة قد تطرح تفسيراً دقيقاً عن عمل الخلايا العصبية المُنتِجة للدوبامين داخل الدماغ.

في التفصيل، يُغيّر نظام الحلول الحسابية المُستحدَث طريقة توقّع المكافآت. كانت المقاربة القديمة تتوقع المكافآت كرقم فردي (لمضاهاة متوسط النتائج المتوقعة). أما المقاربة الجديدة، فتطرح توقعاتها بدقة مضاعفة على شكل نظام توزيعي. هذا التعديل يقوم على فرضية جديدة: هل تتوقع الخلايا العصبية المُنتِجة للدوبامين المكافآت بناءً على طريقة التوزيع نفسها؟لاختبار هذه النظرية، عقدت "ديب مايند" شراكة مع فريق بحثي من جامعة "هارفارد" لمراقبة سلوك الخلايا العصبية المُنتِجة للدوبامين لدى الفئران. كلّف الباحثون القوارض بمهمة معينة وأعطوها مكافأة مبنية على حركة حجر النرد، وقاسوا في الوقت نفسه أنماط نشاط الخلايا العصبية الخاضعة للدراسة. فاكتشفوا أن كل خلية عصبية أطلقت كميات مختلفة من الدوبامين، ما يعني أنها توقّعت نتائج مختلفة. كان بعضها "تفاؤلياً" أكثر من اللزوم، فتوقّع مكافآت تفوق المكافأة الفعلية. وكان بعضها الآخر أكثر "تشاؤماً"، فبقيت توقعاته أقل من الواقع. حين رسم الباحثون خريطة توزيع تلك التوقعات، راقبوا عن كثب طريقة توزيع المكافآت الحقيقية. تطرح هذه البيانات أدلة مقنعة مفادها أن الدماغ يستعمل التوقعات المرتبطة بتوزيع المكافآت لتقوية نظام التعلّم فيه.يكتب وولفرام شولتز، باحث رائد في مجال سلوك الخلايا العصبية المُنتِجة للدوبامين، لم يشارك في الدراسة الأخيرة: "إنه امتداد لافت للمفهوم المرتبط بقدرة الدوبامين على تشفير الأخطاء في التوقعات. من المدهش أن تلتزم هذه الاستجابة البسيطة من جانب الدوبامين بأنماط بديهية من عمليات التعلّم البيولوجية التي بدأت تصبح اليوم عنصراً بارزاً من الذكاء الاصطناعي".

تترافق هذه الدراسة مع تداعيات واضحة في قطاعَي الذكاء الاصطناعي وعلم الأعصاب في آن. في المقام الأول، هي تؤكد على اعتبار التعلّم التوزيعي مساراً واعداً لابتكار قدرات أكثر تقدّماً في الذكاء الاصطناعي. يوضح مات بوتفينيك، مدير قسم الأبحاث في علم الأعصاب في شركة "ديب مايند" وأحد المشرفين الأساسيين على الدراسة الأخيرة: "إذا كان الدماغ يستعمل هذه الطريقة، يعني ذلك على الأرجح أنها أداة فاعلة. قد نستنتج إذاً أن هذه التقنية المحوسبة تستطيع تقييم المواقف على أرض الواقع، ومن المتوقع أن تتماشى مع العمليات المحوسبة الأخرى على أكمل وجه".على صعيد آخر، قد تطرح هذه الدراسة تحديثاً مهماً لإحدى النظريات المتعارف عليها في مجال علم الأعصاب عن أنظمة المكافأة في الدماغ، ما يؤدي إلى تحسين طريقة فهمنا لجميع العوامل المؤثرة، بدءاً من التحفيز وصولاً إلى الصحة النفسية. ما معنى أن تكون الخلايا العصبية المُنتِجة للدوبامين "تشاؤمية" أو "تفاؤلية"؟ وإذا أصغى الدماغ انتقائياً إلى إحدى الخلايا دون سواها، هل ستظهر اختلالات كيماوية وينشأ الاكتئاب في هذه الحالة؟

من خلال فك شيفرة العمليات الناشطة في الدماغ، تُسلّط هذه النتائج الضوء على مصدر الذكاء البشري وتطرح رؤية جديدة عما يحصل داخل أدمغتنا في حياتنا اليومية.


MISS 3