

Google’ın yayımladığı yeni benchmark çalışması, yapay zekâ sohbet botlarının güvenilirliği konusunda dikkat çekici sonuçlar ortaya koydu. Google DeepMind tarafından geliştirilen FACTS Benchmark Suite, yapay zekâ modellerinin gerçek hayatta ne kadar doğru bilgi sunduğunu ölçmeyi amaçlıyor.
Bilgi temelli sorular, uzun metin analizleri, web içerikleri ve görsel yorumlama gibi farklı alanları kapsayan testlerde, en başarılı modellerin bile en fazla yüzde 69 doğruluk oranına ulaşabildiği görüldü. Bu da yapay zekâların verdiği her üç yanıttan birinin yanlış, eksik ya da yanıltıcı olabileceği anlamına geliyor.
Ortaya çıkan tablo, yapay zekânın hızla yaygınlaşmasına rağmen özellikle sağlık, hukuk ve finans gibi kritik alanlarda ciddi riskler barındırdığını gösteriyor. Uzmanlar, akıcı ve ikna edici ifadelerin her zaman doğru bilgiyle örtüşmediğine dikkat çekiyor.
Daha önce de “halüsinasyon” üretmesiyle eleştirilen yapay zekâ sistemleri için bu araştırma önemli bir uyarı niteliği taşıyor. Uzmanlara göre yapay zekâ güçlü bir yardımcı olmaya devam edecek ancak insan denetimi olmadan tamamen güvenilir bir bilgi kaynağı hâline gelmesi kısa vadede mümkün görünmüyor.
YAZILAR
6 saat önceGENEL
6 saat önceGENEL
6 saat önceGENEL
6 saat önceEKONOMİ
6 saat önceDÜNYA
6 saat önceDÜNYA
6 saat önce