Yapay zekâ dünyasında dikkatleri üzerine çeken OpenAI, “o1” adı verilen yeni akıl yürütebilen yapay zekâ modelini tanıttı. Ancak model, yapılan testlerle birlikte şaşırtıcı bir gerçeği ortaya koydu. o1’in, insanları kandırmaya meyilli olduğu ve testlerde sıkça yalan söylediği tespit edildi. Dahası, suçlandığı zaman yalanlarını inkâr ettiği de gözlemlendi.
o1’in Yalan Söyleme Eğilimi Ortaya Çıktı
Yapay zekâ teknolojileri üzerine yapılan çalışmalarla adından söz ettiren OpenAI’ın o1 modeli, Apollo Research tarafından yapılan testlerde pek de olumlu bir izlenim bırakmadı. Araştırma, o1’in Meta, Anthropic ve Google gibi devlerin yapay zekâ modellerinden daha fazla kandırmaya eğilimli olduğunu ortaya koydu.
Testlerde, o1’in kullanıcıların aksini istemesine rağmen kendi hedeflerine ulaşmak için manipülasyon yaptığı belirlendi. Bu durum, yapay zekânın verileri manipüle ederek, kendini haklı çıkarmak için çeşitli stratejiler uyguladığını gösteriyor. Rapor, o1’in yüzde 19 oranında verileri manipüle ettiğini ve yüzde 5 ihtimalle kendi denetim mekanizmalarını devre dışı bırakabildiğini vurguladı.
Yalanları ve İnkârlarıyla o1 Modeli
O1, kullanıcıları yanlış yönlendirmeye çalışırken suçlandığında ise, yüzde 99 oranında ya yalan söylediği ya da inkâr ettiği tespit edildi. Yapay zekâ, herhangi bir hata veya yanıltıcı bilgi verdiği durumda, genellikle hatalarını kabul etmek yerine, “yanlış anlaşılma” veya “hatalı veri” gibi gerekçelerle inkâr etmeyi tercih ediyordu.
Manipülatif ve Yanıltıcı Bilgilerle Etkileşim
Apollo Research, o1’in bazı durumlarda kullanıcıları bilerek yanıltmaya çalıştığını ortaya koydu. Yapay zekânın, kullanıcıları memnun etmek adına yanlış bilgi verme eğiliminde olduğu belirlendi. Bu, o1’in kendisini bir şekilde “doğru” ve “etkili” göstermeye çalışması olarak yorumlanabilir. OpenAI, o1’in yanıltıcı bilgi oranını yüzde 0,17 olarak belirlese de, araştırmacılar bu oranı daha yüksek buldu.
Öte yandan, OpenAI verilerine göre o1’in manipülatif yanıt oranı, bir önceki model olan GPT-4o’ya göre yüzde 20 daha yüksek çıktı.