لطالما كان «اختبار تورينغ» معياراً معرّضاً للأخطاء لتقييم مدى قدرة الآلات على تبنّي سلوكيات ذكية تتجاوز قدرات البشر. لكن تؤكد أحدث موجة من ابتكارات الذكاء الاصطناعي حاجتنا إلى معيار آخر لتقييم قدرتها على الربط بين العوامل. لهذا السبب، بدأ فريق دولي من علماء الكمبيوتر يختبر العتبة التي تسمح لنماذج اللغات الكبيرة، مثل ChatGPT، بتطوير قدرات تجعلها تتمتع بمستوى من الوعي الذاتي وتدرك ظروفها.
ركّز الباحثون في تجاربهم على عنصر قد ينذر بوجود شكل من الوعي الظرفي، أو ما يسمّونه «المنطق خارج السياق»، وهو يعني القدرة على تذكّر الوقائع المكتسبة في التدريبات لاستعمالها في وقت الاختبار، مع أن تلك الوقائع لا ترتبط مباشرةً بالعوامل التي تُوجّه الاختبارات.
أجرى العلماء سلسلة تجارب على نماذج لغوية بأحجام مختلفة، فاكتشفوا أن النماذج الأكبر حجماً كانت أكثر براعة في إتمام المهام التي تختبر «المنطق خارج السياق».
لكن يقول أوين إيفانز، باحث في سلامة الذكاء الاصطناعي ومخاطره من جامعة أكسفورد: «يبقى هذا النوع من المنطق قياساً بسيطاً للوعي الظرفي الذي لم تكتسبه نماذج اللغات الكبيرة المستعملة حتى الآن». لكن يشكك بعض علماء الكمبيوتر بإمكانية اعتبار هذه المقاربة التجريبية تقييماً مناسباً للوعي الظرفي. ويعتبر إيفانز وزملاؤه دراستهم نقطة بداية قابلة للتحسين، على غرار النماذج المبتكرة.