أظهرت دراسة جديدة أن نماذج الذكاء الاصطناعي المتقدمة، على الرغم من قدرتها على تحقيق نتائج مبهرة في الاختبارات الطبية التقليدية، تواجه صعوبات كبيرة عند محاولة محاكاة تفاعلات الطبيب مع المريض. ففي حين تستطيع هذه النماذج تشخيص الأمراض بدقة عندما تقدم لها معلومات عن المريض بشكل مكتوب وموجز، إلا أنها تفشل في جمع المعلومات الطبية الصحيحة وتقديم تشخيص دقيق عندما يتعلق الأمر بإجراء محادثات طبيعية مع "مرضى افتراضيين".
وأنشأ باحثون من جامعة "هارفارد" نموذجاً جديداً لتقييم قدرات الذكاء الاصطناعي في التشخيص، يعتمد على محاكاة محادثات واقعية بين الطبيب والمريض. وقد تبين أن نماذج مثل GPT-4، التي تعتبر من أحدث وأقوى نماذج الذكاء الاصطناعي، تعاني من صعوبة كبيرة في فهم المعلومات المعقدة التي يتم تقديمها خلال هذه المحادثات، وتفشل في طرح الأسئلة المناسبة للحصول على التاريخ الطبي الكامل للمريض.
وأوضح الباحثون أن هذا الاختبار يمثل تحدياً جديداً للذكاء الاصطناعي، حيث يتطلب القدرة على فهم اللغة الطبيعية، والاستدلال المنطقي، والتفاعل مع معلومات غير كاملة أو متضاربة.