Yapay Zekâ Testleri Kusurlu Bulundu
Yapay Zekayı Ölçen Testler Güven Vermiyor: 445 Kriterin Neredeyse Tamamı Kusurlu Çıktı Yapay zekâ sistemlerinin güvenliği ve doğruluğunu ölçmek için kullanılan testlerin büyük kısmı, beklenen standartları karşılamıyor. İngiltere Yapay Zekâ Güvenlik Enstitüsü öncülüğünde, Stanford, Berkeley ve Oxford gibi prestijli üniversitelerin de yer aldığı 14 kurumdan 29 bilim insanı tarafından yapılan geniş çaplı analiz, 445 farklı değerlendirme testini mercek altına aldı.
“Önemli Olanı Ölçmek: Büyük Dil Modeli Kıyaslamalarında Yapı Geçerliği” başlıklı araştırma, yapay zekâ modellerinin performansını ölçmekte kullanılan testlerin büyük bölümünde metodolojik hatalar bulunduğunu ortaya koydu. Bilim insanlarına göre bu kusurlar, testlerin sonuçlarını “bilimsel geçerliliği zedeleyecek” seviyeye kadar düşürüyor.
Oxford İnternet Enstitüsü’nden Andrew Bean, The Guardian’a yaptığı açıklamada, söz konusu testlerin büyük teknoloji şirketleri tarafından piyasaya sürülen yeni yapay zekâ modellerinin temel değerlendirme araçları olduğunu belirtti. Bean, “Bu testler, modellerin gerçekten gelişip gelişmediğini anlamamız için kritik öneme sahip. Ancak ortak tanımlar ve sağlam ölçüm standartları olmadan elde edilen sonuçların güvenilirliği ciddi şekilde sorgulanıyor.” ifadelerini kullandı.
Araştırma, doğal dil işleme ve makine öğrenimi gibi alanlardaki uluslararası konferanslarda kullanılan değerlendirme sistemlerini de kapsıyor. Uzmanlar, eksik tanımlamalar, yetersiz örneklem çeşitliliği ve ölçüm çelişkilerinin testlerin sonuçlarını doğrudan etkilediğini vurguluyor.
Bilim insanları, yapay zekâ teknolojilerinin hızla geliştiği bu dönemde, değerlendirme standartlarının da aynı hızda güncellenmesi gerektiğini belirtiyor. Çalışma, “güvenli, şeffaf ve ölçülebilir yapay zekâ sistemleri” inşa etmenin yalnızca algoritmaları değil, onları ölçen yöntemleri de yeniden tanımlamayı zorunlu kıldığını gösteriyor.