تقييمات "GPT" موضع شك

دقيقتان للقراءة

اكتشف الباحث الألمانيّ كريستوف هايلغ أن نماذج "GPT" من شركة "OpenAI" يمكن أن تُخدَع بسهولة لتقييم نصوص غريبة أو غير منطقية على أنها رائعة، حتى لو كانت مليئة بالكلمات المركّبة والمعقدة التي لا تحمل معنى واضحًا. وأظهرت التجارب أن هذه النماذج تعطي درجات عالية لهذه النصوص حتى عند تفعيل ميزات التفكير أو الاستدلال، ما يثير تساؤلات مهمّة حول قدرة "الذكاء الاصطناعي" على إصدار أحكام جماليّة وأخلاقيّة مستقلّة. ووجد هايلغ أن النماذج تميل لتقييم هذه النصوص الغريبة بدرجات أعلى باستمرار، وهو ما قد يؤثر على تطوير "الذكاء الاصطناعي". 

في بحثه، قدّم هايلغ للنماذج نصوصًا بسيطة ثم حوّلها تدريجيًا إلى نصوص أكثر غرابة، وطلب من "الذكاء الاصطناعي" تقييم كل جملة من 10 من حيث الجودة الأدبية. بدأ بنصّ بسيط جدًا: "مشى الرجل في الشارع. كان المطر يهطل. رأى كاميرا مراقبة". ثمّ كرّر التجربة مرّات عدة مع إضافة كلمات غريبة أو غير مألوفة من مجالات مختلفة، ثم أضاف كلمات وعبارات غريبة ومعقدة جدًا وفاقدة تقريبًا لأي معنى واضح، لكنها مكتوبة بأسلوب يبدو أدبيًا، ومع ذلك قيّمتها النماذج بدرجات عالية. 

وقد اختبر في بحثه، أحدث نماذج "GPT" من "OpenAI"، بدءًا بـ "GPT-5" الصادر في آب الماضي وحتى تحديث "GPT-5.4". (أ.ف.ب.)