“Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği” başlıklı araştırma, yapay zekâ modellerinin performansını ölçmekte kullanılan testlerin büyük bölümünde metodolojik hatalar bulunduğunu ortaya koydu. Bilim insanlarına göre bu kusurlar, testlerin sonuçlarını “bilimsel geçerliliği zedeleyecek” seviyeye kadar düşürüyor.
Oxford İnternet Enstitüsü’nden Andrew Bean, The Guardian’a yaptığı açıklamada, söz konusu testlerin büyük teknoloji şirketleri tarafından piyasaya sürülen yeni yapay zekâ modellerinin temel değerlendirme araçları olduğunu belirtti. Bean, “Bu testler, modellerin gerçekten gelişip gelişmediğini anlamamız için kritik öneme sahip. Ancak ortak tanımlar ve sağlam ölçüm standartları olmadan elde edilen sonuçların güvenilirliği ciddi şekilde sorgulanıyor.” ifadelerini kullandı.
Araştırma, doğal dil işleme ve makine öğrenimi gibi alanlardaki uluslararası konferanslarda kullanılan değerlendirme sistemlerini de kapsıyor. Uzmanlar, eksik tanımlamalar, yetersiz örneklem çeşitliliği ve ölçüm çelişkilerinin testlerin sonuçlarını doğrudan etkilediğini vurguluyor.
Bilim insanları, yapay zekâ teknolojilerinin hızla geliştiği bu dönemde, değerlendirme standartlarının da aynı hızda güncellenmesi gerektiğini belirtiyor. Çalışma, “güvenli, şeffaf ve ölçülebilir yapay zekâ sistemleri” inşa etmenin yalnızca algoritmaları değil, onları ölçen yöntemleri de yeniden tanımlamayı zorunlu kıldığını gösteriyor.










