AIの進化は本物なのか? 近年のベンチマークテストの信頼性が揺らぎ、AIモデルが本当に成長しているのか疑問視されている。テスト汚染の問題や新たな···