AQSh va Buyuk Britaniya tadqiqotchilari sun'iy intellekt tizimlari murakkab matematik muammolarni qanchalik yaxshi yechishini sinab ko'rish uchun FrontierMath deb nomlangan yangi testni ishlab chiqdilar.

So'nggi yillarda ChatGPT kabi sun'iy intellekt modellari matnni qayta ishlash va yaratishda sezilarli yutuqlarga erishdi. Modellarning javoblari shu qadar hayratlanarli ediki, ular hatto yuqori darajadagi “aql”ni ham ko‘rsatdi. Ammo mutaxassislar teo Murakkab muammolarni hal qilish hali ham zamonaviy modellarning zaifligi hisoblanadi. Ajoyib muvaffaqiyati va elementar va oraliq matematik muammolarni hal qilish qobiliyatiga qaramay, sun'iy intellekt (AI) ilg'or matematikaga kelganda hali ham cheklangan.
Olimlar SI modellarini baholash uchun ko'plab turli xil mos yozuvlar testlari yoki benchmarklardan foydalanadilar. Hozirgi kunda MATH va GSM8K eng mashhur testlardir. Ushbu testlarda ko'plab til modellari taxminan 90% hollarda to'g'ri javoblarni topadi. Biroq, yangi test mualliflarining fikricha, bunday testlar cheklangan murakkablikka ega va SI imkoniyatlarini to‘liq baholashga xizmat qilmaydi. Matematik tushunchaning yuqori darajasini aniqlash uchun murakkab mezon kerak. Shuning uchun FrontierMath tug'ildi.
Yangi testni tayyorlash jarayonida mutaxassislar mashhur matematiklarga murojaat qilib, ularning hech qachon hech qayerda chop etilmagan eng qiyin masalalarini hal qilishdi. Qayd etilgan yuzlab muammolarning ba'zilari shu qadar murakkabki, ularni hal qilish uchun oddiy odamga bir necha kun kerak bo'ladi.
FrontierMath sonlar nazariyasidan algebraik geometriyagacha bo‘lgan mavzularni qamrab olishi bilan o‘ziga xosdir. Bunday yondashuv keng bilim talab qiladi, oddiy SI algoritmlaridan foydalanish imkoniyatini cheklaydi. Shu sababli, ushbu tanlovda yuqori natijalarga erishmoqchi bo'lgan modellar nafaqat katta hajmdagi ma'lumotlarga ega bo'lishlari, balki tahlil qilish va muammolarni hal qilishda ijodiy qobiliyatga ega bo'lishlari kerak.
Dastlabki testlar FrontierMath zamonaviy sun’iy intellekt uchun qanchalik murakkab ekanligini ko‘rsatadi. Oldingi testlarda yaxshi ball to‘plagan modellar yangi testdan 2 foizgacha ham ololmadi. Ushbu natija shuni ko'rsatadiki, hozirgi SI darajasi hali ham matematik fikrlashni talab qiladigan murakkab muammolarni hal qilish imkoniyatidan uzoqdir.